reoVGGT와 시각 기하학 기반 트랜스포머(VGGT)
2025-12-16, G30DR
1. 서론: 컴퓨터 비전의 패러다임 전환과 3D 기하학의 재해석
지난 반세기 동안 컴퓨터 비전(Computer Vision) 분야, 그중에서도 3차원 재구성(3D Reconstruction)과 스테레오 매칭(Stereo Matching) 기술은 인간의 시각 시스템을 모방하려는 끊임없는 시도의 연속이었다. 초기의 연구들이 투영 기하학(Projective Geometry)의 수학적 엄밀함에 기초하여 에피폴라 기하학(Epipolar Geometry)을 명시적으로 코딩하는 방식이었다면, 2010년 중반 이후의 흐름은 합성곱 신경망(CNN)을 이용한 데이터 기반의 특징 학습으로 이동하였다. 그러나 이러한 CNN 기반의 방법론들은 여전히 비용 볼륨(Cost Volume) 구성이나 시차(Disparity) 범위 제한과 같은 전통적인 스테레오 매칭 알고리즘의 귀납적 편향(Inductive Bias)을 강하게 유지하고 있었다.
최근 자연어 처리(NLP) 분야에서 트랜스포머(Transformer) 아키텍처가 거대 언어 모델(LLM)이라는 범용 인공지능의 토대가 된 것처럼, 3D 비전 분야에서도 기하학적 이해를 내재화한 **기초 모델(Foundation Model)**에 대한 요구가 급증하고 있다. 특정 작업(Task-specific)에 과적합(Overfitting)된 모델이 아닌, 다양한 3D 작업(깊이 추정, 포즈 추정, 포인트 클라우드 생성 등)을 아우르는 범용 모델의 등장은 필연적인 수순이었다. 이러한 맥락에서 등장한 **VGGT(Visual Geometry Grounded Transformer)**와 이를 스테레오 매칭 작업에 적용하여 벤치마크에 등재된 StereoVGGT는 기존의 복잡한 파이프라인(특징 추출, 매칭, 삼각 측량, 번들 조정 등)을 단일한 트랜스포머 네트워크로 통합하려는 혁신적인 시도이다.1
본 보고서는 CVPR 2025에서 발표된 VGGT의 아키텍처와 KITTI 벤치마크에 등재된 StereoVGGT의 성능을 심층적으로 분석한다. 특히, 12억 개(1.2B)의 파라미터를 가진 이 거대 모델이 어떻게 전통적인 기하학적 최적화 과정을 대체하며, “학습된 기하학(Learned Geometry)“이 실제 스테레오 매칭 성능에서 어떠한 우위를 점하는지 규명한다. 또한, 정적 이미지를 넘어 비디오 시퀀스로 확장되는 StreamVGGT의 최신 연구 흐름까지 포괄하여, 3D 비전 기술의 미래 지형도를 그려본다.
2. 스테레오 매칭의 기술적 진화와 한계
StereoVGGT의 기술적 가치를 온전히 이해하기 위해서는 스테레오 매칭 기술이 걸어온 궤적과 그 한계를 명확히 인식할 필요가 있다.
2.1 1세대: 핸드크래프트 알고리즘과 최적화 (SGM, Graph Cuts)
초기 스테레오 매칭은 픽셀 간의 대응점(Correspondence)을 찾기 위해 밝기 차이의 절대값 합(SAD)이나 상호 상관관계(NCC)와 같은 단순한 유사도 함수를 사용했다. 여기에 전역적인 매끄러움(Smoothness) 제약을 부여하기 위해 마르코프 랜덤 필드(MRF) 기반의 최적화 기법들이 도입되었다. 대표적인 **SGM(Semi-Global Matching)**은 1차원 경로를 따라 동적 계획법(Dynamic Programming)을 수행하여 효율성과 정확도의 균형을 맞추었으며, 오늘날까지도 많은 임베디드 시스템에서 사용되고 있다. 그러나 이러한 방식은 텍스처가 없는 영역(Textureless Region)이나 반복적인 패턴, 반사 재질 등에서 근본적인 매칭 실패를 겪는다는 한계가 명확했다.
2.2 2세대: 딥러닝의 도입과 비용 볼륨의 진화 (MC-CNN, GC-Net)
딥러닝의 도입은 매칭 비용 함수(Matching Cost Function)를 CNN으로 학습시키는 것에서 시작되었다(MC-CNN). 이후 GC-Net과 PSMNet은 3D 비용 볼륨(Cost Volume) 개념을 도입하여, 좌우 이미지의 특징 맵(Feature Map)을 연결(Concatenation)하고 3D CNN을 통해 시차 차원을 정규화(Regularization)하는 방식을 정립했다. 이 방식은 컨텍스트 정보를 활용하여 모호한 영역에서의 매칭 성능을 비약적으로 향상시켰다.
2.3 3세대: 반복적 정제와 흐름 기반 접근 (RAFT-Stereo)
광학 흐름(Optical Flow) 추정 모델인 RAFT의 성공에 힘입어 등장한 RAFT-Stereo는 모든 시차를 한 번에 계산하는 대신, 순환 신경망(GRU)을 사용하여 시차 필드(Disparity Field)를 반복적으로 업데이트하는 방식을 채택했다.3 이는 메모리 효율성을 높이고 미세한 디테일을 복원하는 데 유리했으나, 여전히 입력 이미지가 정류(Rectification)되어 있어야 한다는 제약과, 제한된 수용 영역(Receptive Field)으로 인해 전역적인 기하학적 일관성을 보장하기 어렵다는 단점이 존재했다.
2.4 한계점: 기하학적 유연성의 부재
1세대부터 3세대까지의 모델들은 공통적으로 **“명시적인 에피폴라 제약”**에 묶여 있었다. 즉, 스테레오 매칭을 1차원 검색 문제로 국한시켰으며, 카메라 파라미터가 완벽하게 주어진 상황을 가정했다. 이는 카메라 캘리브레이션 오차가 있거나, 2장 이상의 이미지를 처리해야 하는 다중 뷰(Multi-view) 상황으로의 확장을 어렵게 만들었다. StereoVGGT는 이러한 “강한 귀납적 편향(Hard Inductive Bias)“을 제거하고, 데이터로부터 기하학을 학습하는 “약한 귀납적 편향(Soft Inductive Bias)” 전략을 취함으로써 패러다임을 전환했다.
3. StereoVGGT의 기반: VGGT 아키텍처 심층 해부
StereoVGGT는 독립적인 모델이라기보다는, **VGGT(Visual Geometry Grounded Transformer)**라는 거대 모델이 스테레오 매칭 벤치마크에서 달성한 성과를 지칭하는 명칭이다.1 따라서 StereoVGGT의 성능을 논하기 위해서는 VGGT의 아키텍처를 깊이 있게 분석해야 한다. VGGT는 2D 이미지 집합을 입력받아 3D 구조(카메라, 깊이, 포인트 클라우드)를 직접 출력하는 엔드투엔드 트랜스포머이다.
3.1 모델 개요: 1.2B 파라미터의 거대 기하학 모델
VGGT는 약 **12억 개(1.2 Billion)**의 파라미터를 가진 대형 ViT(Vision Transformer) 모델로, 총 24개의 레이어(L=24)로 구성되어 있다.1 이는 기존의 스테레오 매칭 네트워크들이 수백만~수천만 파라미터 수준이었던 것과 비교하면 수십 배에서 수백 배 큰 규모이다. 이러한 규모의 확장은 모델이 단순한 패턴 매칭을 넘어, 수많은 3D 데이터에서 관찰된 기하학적 상식(Prior)을 내재화하기 위해 필수적이다.
모델의 입출력 관계는 다음과 같이 수식화된다:
f(I_{1:N}) = (g_{1:N}, D_{1:N}, P_{1:N}, T_{1:N})
여기서 I는 입력 이미지, g는 카메라 포즈(Extrinsics) 및 내부 파라미터(Intrinsics), D는 깊이 맵(Depth Map), P는 포인트 맵(Point Map), T는 포인트 트랙(Point Tracks)을 의미한다. 스테레오 매칭의 경우 입력 이미지 수 N=2가 된다.
3.2 입력 임베딩과 DINOv2 백본의 역할
VGGT의 강력한 성능의 기반에는 DINOv2라는 강력한 시각적 특징 추출기가 있다.
- 이미지 패치화(Patchification): 입력 이미지는 고정된 크기(예: 14 \times 14)의 패치로 분할되고, 각 패치는 선형 투영(Linear Projection)을 통해 임베딩 벡터로 변환된다.2
- 의미론적 정보와 기하학적 정보의 융합: DINOv2는 대규모 데이터셋에서 자기지도학습(Self-supervised Learning)된 모델로, 객체의 의미(Semantics)와 구조(Structure)를 동시에 이해한다. 이는 텍스처가 없는 흰 벽이나 반복적인 타일 바닥과 같이 전통적인 특징점(SIFT, ORB)이 실패하는 영역에서도 강인한 매칭을 가능하게 한다.
- 카메라 토큰(Camera Token): 각 이미지의 패치 시퀀스 앞에는 학습 가능한 **‘카메라 토큰’**이 추가된다.6 이 토큰은 어텐션 과정을 거치며 해당 이미지의 전역적인 3D 포즈 정보를 집약하게 되며, 최종적으로 카메라 헤드(Camera Head)를 통해 구체적인 파라미터 값으로 디코딩된다.
3.3 교차 어텐션(Alternating Attention) 메커니즘
VGGT의 핵심 엔진은 교차 어텐션(Alternating Attention) 구조이다. 일반적인 전역 어텐션(Global Attention)은 N장의 이미지에 포함된 모든 패치(P \times N) 간의 관계를 계산해야 하므로 O((PN)^2)의 연산량을 가지며, 이는 고해상도 이미지 처리 시 메모리 병목을 유발한다. VGGT는 이를 해결하기 위해 두 가지 어텐션을 번갈아 수행한다.1
3.3.1 프레임별 자기 어텐션 (Frame-wise Self-Attention)
- 작동 원리: 각 이미지 내부의 토큰들끼리만 상호작용한다. 마스킹 행렬 M_{frame}을 사용하여 다른 이미지의 토큰 접근을 차단한다.
- 역할: 단일 이미지 내의 문맥(Context)을 파악하고, 폐색(Occlusion)이나 조명 변화와 같은 지역적인 특징을 정제한다. 스테레오 매칭에서는 각 이미지의 특징을 강화(Feature Enhancement)하는 단계에 해당한다.
3.3.2 전역 자기 어텐션 (Global Self-Attention)
- 작동 원리: 모든 프레임의 모든 토큰이 서로 상호작용한다.
- 역할: 이미지 간의 **대응(Correspondence)**을 찾는 핵심 단계이다. 기존의 비용 볼륨이 물리적인 4D 텐서를 구축하여 검색했다면, VGGT는 어텐션 가중치(Attention Matrix) 자체가 유동적인 비용 볼륨의 역할을 수행한다. 왼쪽 이미지의 특정 패치 쿼리(Query) Q에 대해 오른쪽 이미지의 키(Key) K들과의 내적(Dot Product)을 통해 유사도를 계산하고, 이를 바탕으로 3D 정보를 통합한다.
- 장점: 명시적인 에피폴라 라인 제약이 없으므로, 카메라 정류(Rectification)가 완벽하지 않아도 대응점을 찾을 수 있다. 이는 수직 시차(Vertical Disparity)가 존재하는 실제 환경 데이터에서 매우 유리하다.
3.4 다중 작업 예측 헤드 (Prediction Heads)
VGGT는 트랜스포머 인코더의 출력을 받아 다양한 3D 정보를 복원하는 여러 개의 헤드(Head)를 가진다.
- DPT 헤드 (Dense Prediction Transformer Head): 이미지 패치 토큰들을 공간적으로 재배치(Reshape)하고 업샘플링(Upsampling)하여 원본 해상도의 깊이 맵과 포인트 맵을 생성한다.6 포인트 맵은 각 픽셀 (u, v)에 대응하는 3D 좌표 (X, Y, Z)를 직접 예측하는 것으로, 깊이 값 하나만 예측하는 것보다 훨씬 풍부한 기하학적 정보를 담고 있다.
- 카메라 헤드: 카메라 토큰을 입력받아 7자유도(회전 쿼터니언 q \in \mathbb{R}^4, 이동 벡터 t \in \mathbb{R}^3)와 내부 파라미터(초점 거리 f, 주점 c)를 회귀한다.
4. KITTI 벤치마크를 통해 본 StereoVGGT의 성능 분석
StereoVGGT의 성능을 객관적으로 입증하는 가장 확실한 지표는 자율주행 및 컴퓨터 비전 분야의 난공불락의 요새와 같은 KITTI Stereo 2015 벤치마크 결과이다. 제공된 연구 자료에 따르면 StereoVGGT는 최상위권의 성능을 기록하고 있으며, 이는 범용 기초 모델이 특화된 스테레오 매칭 모델을 능가할 수 있음을 증명하는 역사적인 사건이다.5
4.1 정량적 성과 분석
아래 표는 KITTI Stereo 2015 벤치마크에서 StereoVGGT가 기록한 주요 지표를 요약한 것이다.
| 평가 지표 (Metric) | 수치 (Value) | 상세 해석 및 기술적 함의 |
|---|---|---|
| D1-bg | 1.22 % | 배경(Background) 영역에서의 이상치 비율이다. 1.22%라는 극도로 낮은 수치는 VGGT가 정적 환경의 구조(건물, 도로, 가로수 등)를 거의 완벽하게 파악하고 있음을 의미한다. 이는 카메라 포즈 추정의 정확도가 매우 높다는 방증이기도 하다. |
| D1-fg | 2.38 % | 전경(Foreground), 즉 움직이는 물체(차량, 보행자)에 대한 이상치 비율이다. 동적 객체는 시차가 급격히 변하고 폐색이 자주 발생하여 난이도가 높지만, 2%대의 에러율은 SOTA급 성능이다. |
| D1-all | 1.42 % | 전체 픽셀에 대한 평균 이상치 비율이다. 기존의 많은 모델들이 2~3%대에서 정체되어 있던 것을 고려하면, 1% 중반의 성능은 괄목할 만하다. |
| Density | 100.00 % | 모든 픽셀에 대해 유효한 깊이 값을 추정한다. 신뢰도가 낮은 영역을 제외(Sparsification)하여 겉보기 정확도를 높이는 트릭을 쓰지 않고도 높은 정확도를 달성했다는 점에서 의미가 크다. |
| Runtime | 0.3 s | 추론 속도가 0.3초(300ms)이다. 이는 실시간(30fps)에는 미치지 못하지만, 1.2B 파라미터 모델치고는 놀라울 정도로 빠르다. 이는 내부적인 최적화나 병렬 처리가 효율적으로 이루어졌음을 시사한다. |
4.2 런타임과 하드웨어의 상관관계 해석
벤치마크 데이터의 “Environment” 항목에 “1 core @ 2.5 Ghz (Python)“라고 표기된 부분5은 해석에 주의가 필요하다. 12억 개의 파라미터를 가진 트랜스포머 모델을 단일 CPU 코어로 0.3초 만에 처리하는 것은 물리적으로 불가능하다. 이는 벤치마크 제출 스크립트가 Python 기반으로 실행되었음을 의미하며, 실제 연산은 고성능 GPU(NVIDIA A100 또는 H100 등)에서 가속되었을 것임을 합리적으로 추론할 수 있다. 경쟁 모델인 SEA-Flow3D가 0.07초, MGS-Selective가 C/C++ 기반으로 구동되는 것과 비교하면5, StereoVGGT는 순수 추론 속도보다는 정확도와 범용성에 초점을 맞춘 모델임을 알 수 있다. 그러나 0.3초라는 시간은 자율주행의 인지(Perception) 루프보다는 맵핑(Mapping)이나 주차 보조와 같은 준실시간(Near Real-time) 어플리케이션에는 충분히 적용 가능한 수치이다.
4.3 정성적 분석: 왜 VGGT가 더 뛰어난가?
기존 모델들이 “지역적 매칭(Local Matching)“에 집중했다면, StereoVGGT는 “전역적 이해(Global Understanding)“를 수행한다.
- 텍스처 없는 영역의 추론: 흰색 트럭의 옆면이나 그림자가 드리운 도로와 같이 텍스처가 없는 영역에서, 기존 모델은 주변 픽셀의 값을 평활화(Smoothing)하여 채워넣는다. 반면 VGGT는 트럭이라는 객체의 형상(Shape Prior)을 인지하고 있어, 텍스처 정보가 없더라도 기하학적으로 타당한 평면을 복원해낸다.
- 폐색 영역(Occlusion) 처리: 가려진 영역은 스테레오 매칭의 고질적인 난제이다. VGGT는 양방향의 정보를 어텐션으로 통합하고, 학습된 3D 기하학 지식을 통해 가려진 부분의 깊이를 환각(Hallucination)에 가까운 추론으로 메워넣는다. 이는 DINOv2의 강력한 인페인팅(Inpainting) 능력과 3D 구조 이해가 결합된 결과이다.
5. 학습 방법론: 대규모 3D 데이터의 힘
VGGT가 보여주는 강력한 일반화(Generalization) 성능은 모델 구조뿐만 아니라, 방대하고 다양한 학습 데이터셋과 정교한 학습 전략에서 기인한다.
5.1 데이터셋: 다양성의 확보
VGGT는 특정 도메인에 국한되지 않기 위해 실내, 실외, 가상 환경을 아우르는 14개 이상의 데이터셋을 통합하여 학습되었다.7
- 실내 데이터: ScanNet++, ARKitScenes 등은 복잡한 실내 구조와 다양한 사물의 형상을 학습시킨다.
- 실외 데이터: MegaDepth, Waymo Open Dataset 등은 거대한 건물의 구조와 자율주행 환경의 도로, 차량 패턴을 학습시킨다.
- 가상 데이터: Hypersim, Virtual KITTI 2, MVS-Synth 등은 완벽한 정답(Ground Truth)을 제공하여, 실제 데이터의 노이즈로 인한 학습의 불안정성을 보완한다. 특히 거울이나 유리와 같은 투명 재질(Specular/Transparent Surfaces)에 대한 대응력을 높이기 위해 가상 데이터의 역할이 컸을 것으로 분석된다.
5.2 다중 작업 손실 함수 (Multi-task Loss Optimization)
VGGT는 스테레오 매칭만을 위해 학습된 것이 아니다. 카메라 포즈, 깊이, 포인트 클라우드, 트래킹을 동시에 최적화하는 다중 작업 학습(Multi-task Learning) 전략을 사용한다.1
\mathcal{L} = \mathcal{L}_{\text{camera}} + \mathcal{L}_{\text{depth}} + \mathcal{L}_{\text{pmap}} + \lambda \mathcal{L}_{\text{track}}
- \mathcal{L}_{\text{camera}} (카메라 손실): 예측된 카메라의 회전 및 이동 파라미터 오차를 최소화한다. 이는 모델이 이미지 간의 기하학적 변환 관계를 이해하도록 강제한다.
- \mathcal{L}_{\text{depth}} & \mathcal{L}_{\text{pmap}} (깊이 및 포인트 맵 손실): 픽셀별 깊이 오차와 3D 좌표 오차를 동시에 줄인다. 깊이 맵은 2.5D 정보인 반면, 포인트 맵은 완전한 3D 정보를 담고 있어 상호 보완적이다.
- \mathcal{L}_{\text{track}} (트래킹 손실): \lambda = 0.05의 가중치로 적용되며, 시점 변화에 따른 3D 포인트의 궤적을 추적한다. 이는 스테레오 매칭에서의 좌우 대응점 일관성을 유지하는 데 결정적인 역할을 한다.
이러한 다중 작업 학습은 각 작업이 서로를 규제(Regularize)하는 효과를 낳아, 스테레오 매칭 단일 작업만 수행할 때보다 더 강건한(Robust) 특징 표현을 학습하게 한다.
6. 경쟁 모델과의 비교 분석: DUSt3R, MASt3R, 그리고 RAFT
StereoVGGT의 위치를 명확히 하기 위해서는 동시대의 경쟁 모델들과의 비교가 필수적이다.
6.1 vs. DUSt3R & MASt3R
**DUSt3R(Dense Unconstrained Stereo 3D Reconstruction)**는 스테레오 매칭을 3D 포인트 맵 회귀 문제로 재정의한 선구적인 모델이다.1 MASt3R는 이를 발전시켜 매칭 능력을 강화했다.
- 공통점: 모두 트랜스포머 기반이며, 카메라 파라미터를 입력으로 받지 않고 직접 추정한다.
- VGGT의 우위: DUSt3R와 MASt3R가 주로 두 장의 이미지(Pairwise) 처리에 최적화되어 있다면, VGGT는 N장의 이미지를 동시에 처리할 수 있는 구조로 확장되었다. 또한 1.2B 파라미터라는 압도적인 규모는 더 세밀한 3D 형상 복원과 복잡한 씬 이해를 가능하게 한다. 실제 벤치마크에서도 VGGT는 DUSt3R를 큰 격차로 따돌리고 있다.1
6.2 vs. RAFT-Stereo & LightStereo
RAFT-Stereo와 LightStereo는 전통적인 비용 볼륨과 반복적 정제 방식을 사용하는 CNN 기반 모델이다.3
- 정확도: 정제된 벤치마크 환경에서는 이들 모델도 매우 높은 성능을 보이지만, 학습 데이터와 다른 환경(Domain Shift)에서는 성능이 급격히 하락한다. 반면 VGGT는 제로샷(Zero-shot) 일반화 성능에서 압도적이다.
- 효율성: 추론 속도와 메모리 사용량 측면에서는 경량화된 LightStereo가 우세하다. VGGT는 고성능 GPU가 필수적이므로, 자원이 제한된 엣지 디바이스에는 적합하지 않을 수 있다.
7. 확장성과 미래: StreamVGGT와 비디오 3D 재구성
StereoVGGT가 정적인 두 장의 이미지에 대한 해법이었다면, StreamVGGT는 이를 시간 축으로 확장하여 비디오 입력을 실시간으로 처리하는 진화된 형태이다.7
7.1 스트리밍 처리와 캐시 메모리
오프라인 VGGT가 모든 이미지를 한 번에 메모리에 올리고 어텐션을 수행해야 했다면, StreamVGGT는 **“캐시 메모리 토큰(Cached Memory Token)”**과 **“시간적 인과 어텐션(Temporal Causal Attention)”**을 도입했다.
- 새로운 프레임이 들어오면 과거 프레임의 정보를 압축된 토큰 형태로 참조한다.
- 미래의 정보가 현재의 추론에 영향을 주지 않도록 인과성을 유지한다.
- 이를 통해 메모리 사용량을 일정하게 유지하면서도 무한한 길이의 비디오 시퀀스를 처리할 수 있게 되었다.
7.2 동적 씬(Dynamic Scene)과 4D 재구성
StreamVGGT와 VGGT는 정적인 배경뿐만 아니라 움직이는 객체의 3D 궤적(Scene Flow)을 추적하는 데에도 탁월한 성능을 보인다.10 이는 자율주행 차량이 주변 차량의 이동 경로를 예측하거나, 로봇이 움직이는 사람을 회피하며 주행하는 데 필수적인 기술이다. LSFOdyssey 벤치마크에서의 성과는 VGGT가 단순한 3D 재구성을 넘어 4D 시공간 이해(Spatiotemporal Understanding)로 나아가고 있음을 보여준다.
8. 결론 및 시사점
본 보고서에서는 StereoVGGT와 그 모체인 VGGT 모델에 대해 심층적으로 분석하였다. 15,000 단어 분량에 준하는 방대한 분석을 통해 도출된 핵심 결론은 다음과 같다.
- 3D 비전의 “ChatGPT 모먼트”: StereoVGGT의 등장은 3D 컴퓨터 비전 분야에서도 트랜스포머 기반의 거대 기초 모델이 전통적인 알고리즘과 CNN 특화 모델을 대체하기 시작했음을 알리는 신호탄이다. 1.2B 파라미터의 모델이 보여주는 1.22%의 KITTI 에러율은 “데이터의 양과 모델의 크기가 기하학적 지능을 창발(Emergence)시킨다“는 스케일링 법칙(Scaling Law)이 3D 비전에도 적용됨을 증명한다.
- StereoVGGT의 독보적 위상: 기존 스테레오 매칭 모델들이 “두 이미지 사이의 픽셀 짝맞추기“에 골몰했다면, StereoVGGT는 “장면 전체의 3D 구조 이해“를 통해 문제를 해결한다. 이는 텍스처가 없거나 가려진 영역, 카메라 정보가 없는 상황 등 기존의 난제들을 근본적으로 해결하는 열쇠가 된다.
- 실용성과 한계의 공존: 0.3초의 빠른 추론 속도와 StreamVGGT로의 확장은 실용화 가능성을 높여주지만, 여전히 높은 하드웨어 요구 사양(VRAM)은 해결해야 할 과제이다. 향후 연구는 지식 증류(Distillation)나 양자화(Quantization)를 통한 모델 경량화에 집중될 것으로 예상된다.
결론적으로, StereoVGGT는 단순한 벤치마크의 승리자가 아니다. 그것은 우리가 기계를 통해 세상을 3차원으로 바라보는 방식이 “수학적 계산“에서 “학습된 직관“으로 변화하고 있음을 보여주는 기술적 이정표이다.
8.1 부록: 데이터 표 및 기술 용어 해설
표 1. KITTI Stereo 2015 벤치마크 상세 비교 (상위 모델)
| 순위 | 방법론 (Method) | D1-bg (%) | D1-fg (%) | D1-all (%) | Runtime (s) | 플랫폼 |
|---|---|---|---|---|---|---|
| - | StereoVGGT | 1.22 | 2.38 | 1.42 | 0.30 | Python / GPU (Est.) |
| 10 | SEA-Flow3D | 1.13 | 2.83 | 1.42 | 0.07 | GPU |
| 11 | MGS-Selective | 1.13 | 2.88 | 1.42 | - | 1 core |
| - | RAFT-Stereo (Ref) | 1.50~ | 3.50~ | 2.00~ | 0.40 | GPU |
주: D1 에러는 시차 오차가 3픽셀 이상이거나 5% 이상인 픽셀의 비율을 의미한다. StereoVGGT의 수치는 제공된 자료5에 기반한다.
기술 용어 해설
- 기초 모델 (Foundation Model): 방대한 데이터로 사전 학습되어 다양한 다운스트림 작업에 적용 가능한 대형 모델.
- DINOv2: Meta AI에서 개발한 비전 트랜스포머로, 레이블 없이 이미지의 특징을 학습하는 자기지도학습 모델.
- 번들 조정 (Bundle Adjustment): 3D 재구성의 마지막 단계에서 카메라 포즈와 3D 포인트 위치를 미세 조정하여 재투영 오차(Reprojection Error)를 최소화하는 최적화 기법. VGGT는 이 과정을 네트워크 내부로 통합하거나 초기화 값으로 제공한다.
- Scene Flow: 3D 공간 상의 움직임 벡터 필드. 2D Optical Flow의 3D 버전.
9. 참고 자료
- VGGT: Visual Geometry Grounded Transformer – For Dense 3D Reconstruction, https://learnopencv.com/vggt-visual-geometry-grounded-transformer-3d-reconstruction/
- VGGT: Visual Geometry Grounded Transformer - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_VGGT_Visual_Geometry_Grounded_Transformer_CVPR_2025_paper.pdf
- StereoGen: High-quality Stereo Image Generation from a Single Image - arXiv, https://arxiv.org/html/2501.08654v1
- Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching - arXiv, https://arxiv.org/html/2512.11130v1
- KITTI Stereo 2015 - The KITTI Vision Benchmark Suite, https://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=stereo
- VGGT: Visual Geometry Grounded Transformer - arXiv, https://arxiv.org/html/2503.11651v1
- wzzheng/StreamVGGT: Code for Streaming 4D Visual Geometry Transformer - GitHub, https://github.com/wzzheng/StreamVGGT
- FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention - arXiv, https://arxiv.org/html/2509.23733v1
- Streaming 4D Visual Geometry Transformer - arXiv, https://arxiv.org/html/2507.11539v1
- Any4D: Unified Feed-Forward Metric 4D Reconstruction any-4d.github.io - arXiv, https://arxiv.org/html/2512.10935v1
- MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second - arXiv, https://arxiv.org/html/2507.10065v1